大数据三大主流平台框架的比较

您所在的位置:网站首页 Apache Hadoop的主要特点 大数据三大主流平台框架的比较

大数据三大主流平台框架的比较

2023-08-11 09:57| 来源: 网络整理| 查看: 265

作为一种对大量数据进行分布式处理的软件框架,Hadoop具有以下几方面特点:

Hadoop架构大幅提升了计算存储性能,降低计算平台的硬件投入成本。但是由于计算过程放在硬盘上,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存快,尤其是在使用Hadoop进行迭代计算时,非常耗资源,且在开发过程中需要编写不少相对底层的代码,不够高效。

2、Spark

基于Hadoop在实时数据处理上的局限,Spark与Storm框架应运而生,具有改进的数据流处理的批处理框架,通过内存计算,实现对大批量实时数据的处理,基于Hadoop架构,弥补了Hadoop在实时数据处理上的不足。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的I/O开销。Spark不但具备Hadoop MapReduce的优点,而且解决了其存在的缺陷,逐渐成为当今领域最热门的计算平台。

作为大数据框架的后起之秀,Spark具有更加高效和快速的计算能力,其特点主要有:

我们知道计算模式主要有四种,除了图计算这种特殊类型,其他三种足以应付大部分应用场景,因为实际应用中处理主要就是这三种:复杂的批量数据处理、基于历史数据的交互式查询和基于实时数据流的数据处理。

Hadoop MapReduce主要用于计算,Hive和Impala用于交互式查询,Storm主要用于流式数据处理。以上都只能针对某一种应用,但如果同时存在三种应用需求,Spark就比较合适了。因为Spark的设计理念就是“一个软件栈满足不同应用场景”,它有一套完整的生态系统,既能提供内存计算框架,也可支持多种类型计算(能同时支持、流式计算和交互式查询),提供一站式解决方案。

此外,Spark还能很好地与Hadoop生态系统兼容,Hadoop应用程序可以非常容易地迁移到Spark平台上。

除了数据存储需借助Hadoop的HDFS或Amazon S3之外,其主要功能组件包括Spark Core(基本通用功能,可进行复杂的批处理计算)、Spark SQL(支持基于历史数据的交互式查询计算)、Spark Streaming(支持实时流式计算)、MLlib(提供常用机器学习,支持基于历史数据的数据挖掘)和GraphX(支持图计算)等。

尽管Spark有很多优点,但它并不能完全替代Hadoop,而是主要替代MapReduce计算模型。Spark没有像Hadoop那样有数万个级别的集群,所以在实际应用中,Spark常与Hadoop结合使用,它可以借助YARN来实现资源调度管理,借助HDFS实现分布式存储。此外,比起Hadoop可以用大量廉价计算机集群进行分布式存储计算(成本低),Spark对硬件要求较高,成本也相对高一些。

3、Storm

与Hadoop的批处理模式不同,Storm使用一个流计算框架,该框架由Twitter开源,托管在GitHub上。与Hadoop相似,Storm也提出了两个计算角色,Spout和Bolt。

如果说Hadoop是一个水桶,一次只能在一口井里装一个水桶,那么Storm是一个水龙头,它可以打开来连续生产水。Storm还支持许多语言,如Java、Ruby、Python等。因为Storm是一个流计算框架,它使用内存,这在延迟方面有很大优势,但是Storm不会持久化数据。

但Storm的缺点在于,无论是离线、高延迟,还是交互式查询,它都不如Spark框架。不同的机制决定了二者所适用的场景不同,比如炒股,股价的变化不是按秒计算的,因此适合采用计算延迟度为秒级的Spark框架;而在高频交易中,高频获利与否往往就在1ms之间,就比较适合采用实时计算延迟度的Storm框架。

Storm对于实时计算的意义类似于Hadoop对于的意义,可以简单、高效、可靠地处理流式数据并支持多种语言,它能与多种系统进行整合,从而开发出更强大的实时计算系统。

作为一个实时处理流式数据的计算框架,Storm的特点如下:

就像目前云计算市场中风头最劲的混合云一样,越来越多的组织和个人采用混合式大数据平台架构,因为每种架构都有其自身的优缺点。

比如Hadoop,其数据处理速度和难易度都远不如Spark和Storm,但是由于硬盘断电后其数据可以长期保存,因此在处理需要长期存储的数据时还需要借助于它。不过由于Hadoop具有非常好的兼容性,因此也非常容易同Spark和Storm相结合使用,从而满足不同组织和个人的差异化需求。

考虑到网络安全态势所应用的场景,即大部分是复杂批量数据处理(日志事件)和基于历史数据的交互式查询以及数据挖掘,对准实时流式数据处理也会有一部分需求(如会话流的检测分析),建议其大数据平台采用Hadoop和Spark相结合的建设模式。

大数据处理的框架是一直在不断更新优化的,没有哪一种结构能够实现对大数据的完美处理,在真正的大数据平台开发上,需要根据实际需求来考量。

职坐标大数据开发课程从入门到实战项目,让你快速掌握企业所需前沿技术,助你在6个月挑战高薪入职。

我是小职,记得找我

✅ 解锁高薪工作

✅ 免费获取最新技术干货教程资源

版权声明:“职坐标在线” 公众号所发布内容,凡未注明"原创“等字样的均来源于网络,如涉及版权问题,请联系本公众号小编进行删除,谢谢!文中部分图片来源于网络。

转发你最帅,点赞涨薪快返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3